PS：由于调库太多，有时会忘记底层的算法如何实现，即使看paper知道算法是如何运算，也无法熟练的代码落地，所以，温习一下一些机器学习的基本名词解释和具体优化算法。

牛顿法和拟牛顿法也是求解无约束最优化问题的常用方法，有着迭代速度快的优点，由于每一步都要求解目标函数的海赛矩阵的逆矩阵，计算较为复杂，拟牛顿法通过近似的正定矩阵去代替计算较为复杂的海赛矩阵的逆矩阵，简化了计算复杂度

牛顿法

无约束最优化问题:
$\min_{x \in R^{n}} f\left(x\right)$

其中 $x^{*}$ 为目标函数的极小点。

假设条件 $f\left(x\right)$ 为具有二阶连续偏导，第k次迭代值为 $x^{\left(k\right)}$ ,则可将 $f\left(x\right)$ 在 $x^{\left(k\right)}$ 附近进行二阶泰勒展开:

$f\left(x\right) = f\left(x^{\left(k\right)}\right)+g_{k}^{T}\left(x-x^{\left(k\right)}\right)+\dfrac{1}{2}\left(x-x^{\left(k\right)}\right)^{T} H\left(x^{\left(k\right)}\right)\left(x-x^{\left(x\right)}\right)$

其中， $g_{k}=g\left(x^{\left(k\right)}\right)=\nabla f\left(x^{\left(k\right)}\right)$ 是 $f\left(x\right)$ 的梯度向量在点 $x^{\left(k\right)}$ 的值， $H\left(x^{\left(k\right)}\right)$ 是 $f\left(x\right)$ 的海赛矩阵
$H\left(x\right)=\left[\dfrac{\partial^{2}f}{\partial x_{i} \partial x_{j}}\right]_{n \times n}$
在点 $x^{\left(k\right)}$ 的值。

函数 $f\left(x\right)$ 有极值的必要条件是在极值点处一阶导数为0，即梯度向量为0。特别的当 $H\left(x^{\left(k\right)}\right)$ 是正定矩阵时，函数 $f\left(x\right)$ 的极值为极小值。（相当于标量函数的二阶导数大于0）

假设 $x^{\left(k+1\right)}$ 满足
$\nabla f\left(x^{\left(k+1\right)}\right)=0$
根据二阶泰勒展开，得
$\nabla f\left(x\right)=g_{k}+H_{k}\left(x-x^{\left(x\right)}\right)$
其中， $H_{k}=H\left(x^{\left(k\right)}\right)$ ，则
$g_{k}+H_{k}\left(x^{\left(k+1\right)}-x^{\left(x\right)}\right)=0$
$x^{\left(k+1\right)}=x^{\left(k\right)}-H_{k}^{-1}g_{k}$
令
$H_{k}p_{k}=-g_{k}$
则
$x^{\left(k+1\right)}=x^{\left(k\right)}+p_{k}$

算法计算过程如下
牛顿法：
输入：目标函数 $f\left(x\right)$ ，梯度 $g\left(x\right)=\nabla f\left(x\right)$ ，海赛矩阵 $H\left(x\right)$ ，精度要求 $\varepsilon$
输出： $f\left(x\right)$ 的极小点 $x^{*}$

取初始点 $x^{\left(0\right)}$ ，置 $k=0$
计算 $g_{k}=g\left(x^{\left(k\right)}\right)$
若 $\|g_{k}\| < \varepsilon$ 则停止计算，得近似解 $x^{*}=x^{\left(k\right)}$
计算 $H_{k}=H\left(x^{\left(k\right)}\right)$ ，并求 $p_{k}$
$H_{k}p_{k}=-g_{k}$
置 $x^{\left(k+1\right)}=x^{\left(k\right)}+p_{k}$
置 $k=k+1$ ，转2.

拟牛顿法

思路考虑用一个n阶矩阵 $G_{k}$ 来代替海赛矩阵的逆矩阵 $H_{k}^{-1}$
取 $x=x^{\left(k+1\right)}$ ，由
$\nabla f\left(x\right)=g_{k}+H_{k}\left(x-x^{\left(x\right)}\right)$
得
$g_{k+1}-g_{k}=H_{k}\left(x^{\left(k+1\right)}-x^{\left(x\right)}\right)$
记 $y_{k}=g_{k+1}-g_{k}，\delta_{k}=x^{\left(k+1\right)}-x^{\left(k\right)}$ ，则
$y_{k}=H_{k}\delta_{k}$
$H_{k}^{-1}y_{k}=\delta_{k}$ 称为拟牛顿条件。

如果 $H_{k}$ 是正定矩阵（ $H_{k}^{-1}$ 也是正定），则可以保证牛顿法搜索方向是下降方向，存在搜索方向 $p_{k}=-\lambda g_{k}$
由
$x^{\left(k+1\right)}=x^{\left(k\right)}-H_{k}^{-1}g_{k}$
有
$x=x^{\left(k\right)}-\lambda H_{k}^{-1} g_{k}=x^{\left(k\right)}+\lambda p_{k}$
则 $f\left(x\right)$ 在 $x^{\left(k\right)}$ 的泰勒展开可近似为
$f\left(x\right)=f\left(x^{\left(k\right)}\right)-\lambda g_{k}^{T} H_{k}^{-1} g_{k}$
由于 $H_{k}^{-1}$ 正定，故 $g_{k}^{T} H_{k}^{-1} g_{k} > 0$ 。当 $\lambda$ 为一个充分小的正数时，有 $f\left(x\right) < f\left(x^{\left(x\right)}\right)$ ，即搜索方向 $p_{k}$ 是下降方向。

拟牛顿法将 $G_{k}$ 视作 $H_{k}^{-1}$ 的近似，满足正定条件后，还要满足上述拟牛顿条件，按照拟牛顿条件，每次更新迭代时可以选择更新矩阵 $G_{k+1}$ :
$G_{k+1}=G_{k}+∇G_{k}$ ,具体有以下几种实现方法：

DFP算法

DFP算法中选择 $G_{k}$ 作为 $H_{k}^{-1}$ 的近似，假设每一步迭代中矩阵 $G_{k+1}$ 是由 $G_{k}$ 加上两个附加项构成，即 $G_{k+1}=G_{k}+P_{k}+Q_{k}$
其中， $P_{k}$ 与 $Q_{k}$ 是待定矩阵。则 $G_{k+1}y_{k}=G_{k}y_{k}+P_{k}y_{k}+Q_{k}y_{k}$
为使 $G_{k+1}$ 满足拟牛顿条件，可使 $P_{k}$ 与 $Q_{k}$ 满足
$P_{k}y_{k}=\delta_{k}$
$Q_{k}y_{k}=-G_{k}y_{k}$
可取
$P_{k}= \dfrac{\delta_{k} \delta_{k}^{T}}{\delta_{k}^{T} y_{k}}$
$Q_{k}=- \dfrac{G_{k}y_{k}y_{k}^{T}G_{k}}{y_{k}^{T}G_{k}y_{k}}$
可得矩阵 $G_{k+1}$ 的迭代公式
$G_{k+1}＝G_{k}+\dfrac{\delta_{k} \delta_{k}^{T}}{\delta_{k}^{T} y_{k}}- \dfrac{G_{k}y_{k}y_{k}^{T}G_{k}}{y_{k}^{T}G_{k}y_{k}}$
可以证明，如果初始矩阵 $G_{0}$ 是正定的，则迭代过程中的每个矩阵 $G_{k}$ 都是正定的。

算法运算过程：
输入：目标函数 $f\left(x\right)$ ，梯度 $g\left(x\right)=\nabla f\left(x\right)$ ，精度要求 $\varepsilon$
输出： $f\left(x\right)$ 的极小点 $x^{*}$

取初始点 $x^{\left(0\right)}$ ，取 $G_{0}$ 为正定矩阵，置 $k=0$
计算 $g_{k}=g\left(x^{\left(k\right)}\right)$ 若 $\|g_{k}\| < \varepsilon$ 则停止计算，得近似解 $x^{*}=x^{\left(k\right)}$ ；否则，转3.
置 $p_{k}=-G_{k}g_{k}$
一维搜索，求 $\lambda_{k}$ 使
$f\left(x^{\left(k\right)}+\lambda_{k}p_{k}\right)=\min_{\lambda \geq 0} f\left(x^{\left(k\right)}+\lambda p_{k}\right)$
置 $x^{\left(k+1\right)}=x^{\left(k\right)}+\lambda p_{k}$
计算 $g_{k+1}=g\left(x^{\left(k+1\right)}\right)$ ，若 $\|g_{k+1}\| < \varepsilon$ ，则停止计算，的近似解 $x^{*}=x^{\left(k+1\right)}$ ；否则，计算
$G_{k+1}＝G_{k}+\dfrac{\delta_{k} \delta_{k}^{T}}{\delta_{k}^{T} y_{k}}- \dfrac{G_{k}y_{k}y_{k}^{T}G_{k}}{y_{k}^{T}G_{k}y_{k}}$
置 $k=k+1$ ，转3.

BFGS算法

BFGS算法中选择 $B_{k}$ 逼近海赛矩阵 $H_{k}$ ，相应的拟牛顿条件
$B_{k+1} \delta_{k} = y_{k}$
假设每一步迭代中矩阵 $B_{k+1}$ 是由 $B_{k}$ 加上两个附加项构成，即
$B_{k+1}=B_{k}+P_{k}+Q_{k}$
其中， $P_{k}$ 与 $Q_{k}$ 是待定矩阵。则
$B_{k+1}y_{k}=B_{k}y_{k}+P_{k}y_{k}+Q_{k}y_{k}$
为使 $B_{k+1}$ 满足拟牛顿条件，可使 $P_{k}$ 与 $Q_{k}$ 满足
$P_{k}\delta_{k}=y_{k}$
$Q_{k}\delta_{k}=-B_{k}y_{k}\delta_{k}$
可取
$P_{k}= \dfrac{y_{k}y_{k}^{T}}{y_{k}^{T}\delta_{k} }$
$Q_{k}=- \dfrac{B_{k}\delta_{k}\delta_{k}^{T}B_{k}}{\delta_{k}^{T}B_{k}\delta_{k}}$
可得矩阵 $B_{k+1}$ 的迭代公式
$B_{k+1}＝B_{k}+\dfrac{y_{k}y_{k}^{T}}{y_{k}^{T}\delta_{k} }- \dfrac{B_{k}\delta_{k}\delta_{k}^{T}B_{k}}{\delta_{k}^{T}B_{k}\delta_{k}}$
可以证明，如果初始矩阵 $B_{0}$ 是正定的，则迭代过程中的每个矩阵 $B_{k}$ 都是正定的。

算法运算过程：
输入：目标函数 $f\left(x\right)$ ，梯度 $g\left(x\right)=\nabla f\left(x\right)$ ，精度要求 $\varepsilon$
输出： $f\left(x\right)$ 的极小点 $x^{*}$

取初始点 $x^{\left(0\right)}$ ，取 $B_{0}$ 为正定矩阵，置 $k=0$
计算 $g_{k}=g\left(x^{\left(k\right)}\right)$ 若 $\|g_{k}\| < \varepsilon$ 则停止计算，得近似解 $x^{*}=x^{\left(k\right)}$ ；否则，转3.
由 $B_{k}p_{k}=-g_{k}$ 求出 $p_{k}$
一维搜索，求 $\lambda_{k}$ 使
$f\left(x^{\left(k\right)}+\lambda_{k}p_{k}\right)=\min_{\lambda \geq 0} f\left(x^{\left(k\right)}+\lambda p_{k}\right)$
置 $x^{\left(k+1\right)}=x^{\left(k\right)}+\lambda p_{k}$
计算 $g_{k+1}=g\left(x^{\left(k+1\right)}\right)$ ，若 $\|g_{k+1}\| < \varepsilon$ ，则停止计算，的近似解 $x^{*}=x^{\left(k+1\right)}$ ；否则，计算
$B_{k+1}＝B_{k}+\dfrac{y_{k}y_{k}^{T}}{y_{k}^{T}\delta_{k} }- \dfrac{B_{k}\delta_{k}\delta_{k}^{T}B_{k}}{\delta_{k}^{T}B_{k}\delta_{k}}$
置 $k=k+1$ ，转3.

Broyden算法

对BFGS算法迭代公式，若记 $G_{k}=B_{k}^{-1},\quad G_{k+1}=B_{k+1}^{-1}$
两次应用Sherman-Morrison公式，得
$G_{k＋1}=\left(I- \dfrac{\delta_{k}y_{k}^{T}}{\delta_{k}^{T}y_{k}}\right)G_{k}\left(I-\dfrac{\delta_{k}y_{k}^{T}}{\delta_{k}^{T}y_{k}}\right)^{T}+\dfrac{\delta_{k}\delta_{k}^{T}}{\delta_{k}^{T}y_{k}}$
称为BFGS算法关于 $G_{k}$ 的迭代公式。
令由DFP算法 $G_{k}$ 的迭代公式得到的 $G_{k+1}$ 记作 $G^{DFP}$ ，由BFGS算法 $G_{k}$ 的迭代公式得到的 $G_{k+1}$ 记作 $G^{BFGS}$ ，
由于 $G^{DFP}$ 和 $G^{BFGS}$ 均满足拟牛顿条件，
则两者的线性组合
$G_{k+1}=\alpha G^{DFP}+\left(1-\alpha\right) G^{BFGS}$
也满足拟牛顿条件，而且是正定的。其中， $0 \leq \alpha \leq 1$ 。该类算法称为Broyden类算法。

hi~

牛顿法和拟牛顿法

牛顿法

拟牛顿法

DFP算法

BFGS算法

Broyden算法